3D目标检测目前主要的应用场景就是自动驾驶,自动驾驶车不仅仅需要识别障碍物的类型,还需要识别物体的精确位置和朝向。以提供信息给规划控制模块,规划出合理的线路。
3D目标检测
一、3D目标检测方法
自从2017年以来3D目标检测涌现出了很多经典算法,下面整理了一些算法的时间线。
3D目标检测方法
3D目标检测方法无外乎以下几种。
根据输入类型(传感器种类)来划分,目前3D目标检测的方法分为:
根据特征提取的方法来划分,主要分为以下4种:
-
Point Clouds - 基于原始点进行特征提取
-
Voxel - 把点云划分成一个个的网格,然后提取网格的特征
-
Graph - 利用图的方式,对半径R内的点建立图,然后提取特征
-
2D View - 把3D投影到2D平面,大部分采用BEV视角,然后用2D卷积提取特征
下图分别描述了上述4种特征提取方式:
特征提取示意图
二、Voxelnet
2017年 CVPR Apple公司提出的基于voxel的特征提取方法。
对点云进行网格化,得到规则的特征,然后进行3D卷积。
三、PointNet++
2017年 CVPR 是PointNet的改进,基于原始点提取特征。
采样算法是最远点采样(farthest point sampling, FPS),相对于随机采样,这种采样算法能够更好地覆盖整个采样空间。
点云数据中的一个点的局部由其周围给定半径的球形空间内的其他点构成。
四、MV3D
2017年 CVPR - 百度和清华提出,3D投影到2D平面,多模态融合了Lidar和Camera数据。
其中BEV视角对高度进行切片,切片数量为M,加上密度图和强度图,总共生成M+2个特征图。
FV视角把雷达投影到圆柱体之后再展开到2维平面。
融合方式采用的是深度融合(Deep fusion)。
五、PIXOR
2018年CVPR Uber one-stage, Lidar only
为什么要把PIXOR单独拿出来,因为PIXOR和MV3D都是采用把3D视图投影到2D视图的方法,而PIXOR只采用了BEV视角的特征,效果却比MV3D还要好,所以证明BEV视角非常关键。
六、PointPillars
2019年 CVPR Aptiv
新的点云编码方式,是对SECOND方法的改进。
七、Point-GNN
2020年 CVPR - Carnegie Mellon University
引入了图神经网络对点云3D特征进行提取
首先论文介绍了3D特征提取的3种方式:投影到2D,聚类点集、图
接下来介绍了图神经网络的结构:
新的3D点云特征的表达方式,缺点是速度慢643ms(Xeon E5-1630 CPU and GTX 1070 GPU),并且雷达线数下降的时候,精度下降很明显。
八、总结
最后对3D物体检测做了一些思考和总结:
-
特征提取。不管是根据Voxel,Point Cloud还是投影到BEV,到底如何更好的表示3维特征是后面关注的重点?
-
融合方式。单传感器存在诸多局限,采用多传感器融合是趋势,但是如何融合数据,前融合、后融合还是深度融合?
-
3D Proposal。目前效果比较好的方法普遍是two-stage检测,如何提取有效的提取推荐区域非常关键(一是减少计算量,二是提高精度)。
-
Encoder-Decoder。最新的方法普遍采用了生成方法来提高分辨率。
-
语义信息。后续是否加入语义信息来帮助理解,比如汽车轮子、环境信息等。
-
线束降低。低线束下的模型性能评估?有助于减少成本,以后低线束的雷达和高线速的雷达价格差距大吗?
来源:知乎
作者:王方浩